在algorithmia的 2021 年報告顯示,大多數組織在機器學習方面面臨一定程度的監管負擔,67% 的組織必須遵守多項法規。這些法規包含ISO, OCC, HIPAA, SOC, ...和其他。這意味著管理機器學習的專案應該要是大多數企業的首要關注點,尤其是金融等受到高度監管的行業。
*圖片引用, Machine learning in finance
金融服務行業有各種合規和監管義務。最好的方式,應該與公司的的法律顧問、合規人員和其他參與 ML 流程的利益相關者一起討論、審查和理解這些責任跟義務。舉例來說,若有一個使用者的銀行貸款申請被拒絕,貸款發放的一方須解釋,這個決策的依據,即會牽涉到模型的可解釋性。
一般來說,ML 模型的可解釋性或可解釋性是指讓人們理解和解釋模型用於達到其預測的過程的能力。ML 的到來並不是要完全取代人類做決策,而是幫助在眾多訊息當中提取相關度高的資訊。每一個人的時間與精力都是有限度的,若是善用模型提供的資訊,則可以提升這些決策者做決定的時間以及準確度。
下列幾項是使用機器學習時,所應該要做的專案監管:
(1) 可追溯性和可審計性
(2) 可解釋性
(3) 即時模型監控
(4) 再現性
在金融業的可審計性是相當重要。在ML專案還沒有被廣泛使用的時候,金融業本身就會需要有各式的模型審查,針對公司在使用的相關金融模型,審查該單位的動機、模型存在以及預期的結果。這些審查可以分為兩大類:(1)高級審查:執行以讓客戶對模型有額外的信心(2)正式的模型審計:為客戶和利益相關者提供明確的保證。
在這兩個審計下面展延出相關的檢查事項,其中的審查內容包含:
(1)模型邏輯的回顧
(2)審查模型與財務和合同文件的一致性
(3)審查模型與相關會計和稅務要求的一致性
(4)敏感性審查
這些審查模型運用在該公司預計要承擔任何財務風險的時候會使用到的:估值模型、運營模型、再融資模型、投資組合模型、併購模型等等。
模型可追溯性是關於能夠準確地跟踪模型的過去曾經在哪里,在做什麼,無論是在時間上還是在它可能經過的各種環境中。這可能意味著創建、預生產或生產環境。也可視為模型的“歷史記錄”或“審計追蹤”。
這些紀錄主要用於了解模型發生了哪些變化,對於長時間運行的專案或經常更新的模型特別有價值。模型可追溯性對於法律和合規性原因以及安全和所有權的相關問題也能夠提供相對應的數據作參考。
除了在前一篇提到的:透過CloudTrail和CloudWatch 去監測開發過程的身份授權與相關活動紀錄。這個是屬於一般的軟體專案也可以採用的部分。
另一方面,將ML的預測用在可追溯與審計的情境時,還需在以下的步驟裡面思考可以如何追蹤:
以Amazon SageMaker Experiments為例,可以將這個過程當中透過Git儲存相關程式碼,保存當時的實驗狀態快照,以確保與後面實驗的相容性。並且可以瀏覽過去跟現在的實驗,針對設定的指標比較模型表現。讓這些紀錄也可以有所留存。
在評估機器模型的時候也應有三部分評估需加入考量:
這幾項評估,都應該有相對應的指標,並且標注模型調整的原因,以便於在日後追溯之前的實驗過程,有相關資料可記錄。
在這邊提供來自Auditing Algorithms的審計清單:
相關人員清單
責任 | 示例角色名稱 |
---|---|
領域知識 | 產品負責人、專家 |
AI系統用戶 | 處理官員,個案工作者 |
用戶支持 | 流程熱線、服務台 |
開發者 | 資訊長(CTO/CIO) |
專案管理 | 專案負責人 |
原始資料質量和理解 | 資料工程師 |
機器學習模型 | 資料科學家 |
內部審計 | 審計人員 |
信息安全 | IT安全員 |
數據保護 | 數據保護和隱私專員 |
預算 | 預算持有人,預算專員 |
審計細節所需文件清單
關於在金融業的審查細節,若是在金融業的從業人員,務必以該行業、該市場的狀況為基準。希望今天的文章可以帶給大家一個概略的知識:知道大概有哪些審查,在執行ML專案上,需要在乎哪些跟軟體開發有關、與ML本身專案特性有關的事情,最後附上相關的利益者清單,以及可審計的ML專案所需的文件清單。
今天先寫到這邊,其他的就明天說囉。
Reference
[1].Model Assessment and Model Traceability
[2].Model Audit - Wiki
[3].Model Audit
[4].Model Auditing: the why and the how